——接上期推文
主因子解(Principal Factor Solution)
主成分解的缺点之一是,它仅将协方差矩阵 作了近似的分解,即 。得到精确分解的一种方法就是主因子解。假设我们有对于特别方差矩阵 的初始估计值 :
则可对 求主成分解,即为 “主因子解”(principal factor solution)。也可进行迭代,即针对新的特别方差矩阵 ,再对 求主成分解,以此类推,直至收敛,称为 “迭代主因子解”(iterated principal factor solution)。其中, 为样本协方差矩阵 或相关系数矩阵的逆矩阵之第 k 个主对角线元素 (k = 1,...,p)。事实上,如果选择初始值 为零矩阵,且不作迭代,则主因子解就是主成分解。如果假设共同因子 与特别因子 服从联合正态分布(jointly normal),则 也服从正态分布,故可尝试写下似然函数,进行最大似然估计。
但我们依然无法识别参数 与 。为了计算方便,通常加上一个 “独立性条件”(uniqueness condition),即要求矩阵 为对角矩阵,然后进行有约束的最大似然估计,即可得 “最大似然解”(MLE solution)。由于独立性条件的约束主要为了计算方便而施加,故所得最大似然解一般需要经过适当的旋转,才能得到易于解释的因子载荷矩阵。有时我们也对因子得分(factor score)的估计值感兴趣。对于个体 i,因子模型的方程为:
其中, 为个体 i 的因子得分(比如,每位个体的智力均不同)。一旦得到因子载荷矩阵的估计值 ,则可进行 OLS 估计(将 视为 OLS 回归的数据矩阵 )。由此可得对个体 i 的因子得分之 OLS 估计:如果 为主成分解,只要代入 的表达式,即可得到如下简单的结果:这意味着,个体 i 的因子得分 正是在 处取值的前 m 个主成分的倍数(the first m scaled principal components evaluated at )。这也是主成分解之所以称为 “主成分解” 的原因之一。另外,考虑到 矩阵的主对角线元素并不相等,故存在异方差,也可以使用加权最小二乘法(Weighted Least Squares)来估计因子得分。至此,我们可以简要地总结出主成分分析与因子分析的异同与联系。
共同点:在思想上,二者都着重于 “降维”(dimension reduction)。不同点:主成分分析并没有假设任何模型(或数据生成过程),它只是一个有约束的最大化问题的唯一解。而因子分析则依赖于所假设的因子模型,其中的因子既不可观测,也无法识别。为了求解因子模型,就必须施加约束;而约束条件不同,则可得到不同的解。联系:主成分分析是求解因子模型的一种常见方法,而且其解也称为 “主成分解”(尽管所得的因子载荷矩阵其实是主成分系数的倍数)。在 Stata 中进行因子分析,可使用命令 factor,其句型为:
factor y1 y2 … yp, pcf ipf ml
其中,y1 y2 … yp 为 p 个变量的观测数据,选择项 “pcf” 表示主成分解,“ipf” 表示迭代主因子解(iterated principal factor),“ml” 表示最大似然解,默认为主因子解(pf)。如果使用相关系数矩阵进行因子分析,可使用以下句型:其中,“matname” 为事先定义好的相关系数矩阵(correlation matrix),而必选项 “n(#)” 表示样本容量。如需对所得因子载荷进行旋转,以便得到更好的解释,可使用命令:该命令默认使用 “varimax” 的方法进行因子旋转,即最大化因子载荷之平方的方差(使得因子载荷各系数之间的反差最大)。详见 “help factor”,“help rotate” 以及 “help factor postestimation”。
交互固定效应(Interactive Fixed Effects)
因子分析在统计学中已有百余年的历史,为何计量经济学家突然对因子分析感兴趣呢?在很大程度上,这与面板数据的 “交互固定效应” 之兴起有关。作为对常见的双向固定效应(two-way fixed effects)的重要推广,交互固定效应的数学形式正是因子模型。
其中, 与 分别为 “个体固定效应”(individual fixed effects)与 “时间固定效应”(time fixed effects),可以与解释变量 相关。双向固定效应模型的一个重要局限性是,个体固定效应 与时间固定效应 都是一维的,而且以加法的形式进入模型。事实上,时间冲击很可能是多维的,记为 。比如,考虑一个跨国面板数据(cross-country panel),则不同国家面临的共同冲击(common shocks)可能包括技术冲击(technology shocks)、金融冲击(financial shocks)、贸易冲击(trade shocks)等,可记为 :进一步,这些共同冲击对于不同国家的影响力度一般并不相同(比如,席卷全球的金融海啸对中国的影响比较小)。为此,引入以下模型:其中, 即为交互固定效应,因为它可视为多维个体效应 与多维时间效应 的乘积(交互项),而且 可以与解释变量 相关(固定效应)。由于 与 均不可观测,使用因子分析的术语,则 为共同因子(factors),而 为因子载荷(factor loadings)。显然,常见的双向固定效应模型只是交互固定效应模型的特例。因此,交互固定效应是对双向固定效应模型的重要推广,为当前计量经济学的活跃研究前沿之一。事实上,近来日益流行的 “合成控制法”(synthetic control method, Abadie et al., 2010)与 “回归控制法”(panel data approach for program evaluation, Hsiao et al., 2012),其背后的理论基础也正是交互固定效应。不难看出,由于交互固定效应的特殊形式,传统的静态面板估计方法(比如,组内估计量、差分估计量、LSDV法等)一般不能得到一致估计。关于交互固定效应的估计方法,可大致分为两类。一类方法试图消去交互固定效应 ;比如,Holtz-Eakin, Newey and Rosen (1988),Ahn, Lee and Schmidt (2001) 等。另一类方法则致力于估计出(或控制住) ,比如 Pesaran (2006),Bai (2009)。我们将在今年国庆节的高级计量六天现场班进行深入介绍。
►一周热文
数据呈现丨小白学数据可视化:一个ggplot2画图完整实例
老姚专栏丨均值回复及其对实证研究的启示
数据呈现丨R语言做多变量可视化分析?
统计计量丨工具变量法(二): 弱工具变量
数据呈现丨R语言机器学习中数据可视化的杀手锏
数据资源丨划重点 ! 经济学专业学习Python之爬虫篇
统计计量丨古老而神秘的因子分析(二)
这里是大数据、分析技术与学术研究的三叉路口
作者:陈强出处:计量经济学及Stata应用推荐:杨奇明编辑:青酱